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不 确定 PAHT 聚 类 算法 在 滑坡 危险 性 预测 上 的 应 用 
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摘 要 : 针对 滑坡 预测 聚 类 研究 中 由 于 难以 确定 传统 聚 类 工法 需要 预先 设置 的 和 化 个 数 和 无 法 精准 衡量 不 确定 因素 降雨 
量 导 致 预测 效果 欠 佳 的 问题 ， 提 出 一 种 新 的 聚 类 算法 一 不 确定 PAHT (partition algorithm on the hierarchical thinking) 
算法 ， 该 算法 引入 一 种 不 确定 数据 模型 一 一 M-D 距离 ， 其 有 效 刻画 了 不 确定 的 雨量 数据 ; 并 结合 层次 聚 类 思想 ， 通 过 
找 出 最 佳 阙 值 p* 自 动 确 定 k 值 。 以 延安 宝塔 区 为 实例 进行 对 比 实验 ， 实 验 结果 验证 了 不 确定 M-D 距离 和 了 PAHT 算法 
的 有 效 性 及 不 确定 PAHT 算法 在 滑坡 危险 性 预测 上 的 可 行 性 。 
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Uncertain PAHT clustering algorithm in landslide hazard prediction application 


Hu Jian’, Zhu Lingb, Mao Yimint 
(1. Dept. of Information Engineering, College of Applied Science Jiangxi University of Science & Technology, b. School of 
Information Engineering Jiangxi University of Science & Technology, Ganzhou Jiangxi 341000, China) 


Abstract: In the clustering study of landslide prediction, the difficulties of determining the number of clusters which traditional 
clustering algorithm needs to set in advance and accurately measuring the important factor of Landslide induced-rainfall leads 
to bad prediction effect. Therefore, this paper proposes a new clustering algorithm-Uncertain PAHT algorithm , the algorithm 
introduces a kind of uncertain data model called M-D distance, which effectively measure the uncertain rainfall; and based on 
the hierarchical clustering thinking, through finding the best threshold p* to determine the k value. Contrast experiment in Yenan 
Baota district as an example, the experimental results verified the effectiveness of uncertain M-D distance and PAHT algorithm 
and the feasibility of uncertain PAHT algorithm on the landslide hazard prediction. 
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平价 体系 进行 分 级 ， 实 验 结 果 表 明 滑 坡 灾害 易 发 性 评价 体系 预 
虽 精 度 较 高 。 郭 靖 等 四 首先 在 黔 西 玄武 岩 地 区 建立 Logistic 模 

滑坡 是 一 种 常见 的 地 质 灾害 。 近 年 以 来 ， 滑 坡 事 件 发 生 的 。” ”型 寻找 主要 致 灾 因 子 ， 其 次 利用 聚 类 算法 对 八 个 致 灾 因 子 进行 
频率 和 强度 均 成 增长 之 势 ， 所 造成 的 人 员 伤 亡 和 经 济 损失 也 不 ”预测 ,编制 滑坡 易 发 性 区 划 图 , 结果 验证 了 区 划 结 果 的 可 靠 性 。 
断 加 大 ， 所 以 如 何 预防 滑坡 灾害 已 成 为 吸 待 解决 的 问题 。 滑 坡 ” 胡 畅 等 人 6 以 秘 归 到 巴 东 段 的 顺 层 滑坡 为 研究 对 象 , 采用 
预测 是 有 效 预防 滑坡 灾害 的 重要 途径 ， 但 滑坡 的 主要 诱发 因素 ” 聚 类 算法 将 库 水 、 降 雨 等 影响 因子 进行 等 级 划分 ， 然 后 根据 监 
一 降雨 量 的 不 确定 性 ， 给 滑坡 预测 研究 增加 了 一 定 难度 ， 因 此 ” 测 数据 进行 观测 分 析 ， 取 得 了 较 好 的 预测 结果 。 夏 元 友 中 提出 
不 确定 数据 的 分 析 研 究 成 为 重点 。 并 建立 了 一 种 系统 加 权 聚 类 算法 ， 在 类 间距 计算 时 考虑 了 各 因 

聚 类 分 析 是 数据 挖掘 研究 中 一 种 常用 的 分 析 方 法 ， 其 主要  ” 素 的 影响 权重 ， 并 以 三 峡 库 岸 研究 程度 较 高 的 边 坡 为 例 ， 进 
功能 是 将 数据 集中 相似 的 对 象 尽 可 能 划分 在 相同 的 徐 ， 而 把 相 。 了 一 般 系统 聚 类 法 与 系统 加 权 聚 类 算法 的 对 比 实验 ， 对 比 结 
异 的 对 象 尽 可 能 划分 到 不 同 的 徐 。 聚 类 算法 已 广泛 用 于 多 个 领 ” 表明 ， 其 预测 精度 有 较 大 提高 。 虽 然 传统 聚 类 算法 在 滑坡 预测 
域 ， 在 滑坡 研究 领域 ， 聚 类 分 析 也 已 多 次 被 研究 使 用 ， 并 取得 ”上 取得 了 一 定 成 效 ， 但 依然 存在 以 下 较 明 显 的 问题 : 首先 ， 对 
了 一 定 成 果 。 张 俊 等 人 中 选取 7 个 致 灾 因 子 作为 滑坡 易 发 性 的 于 滑坡 的 主要 诱发 因素 一 降雨 量 ， 由 于 它 是 不 确定 数据 ， 传 统 
评价 指标 ， 采 用 K-means 聚 类 算法 对 三 峡 库 万 州 区 滑坡 易 发 性 ” 聚 类 算法 无 法 对 它 有 效 分 析 和 处 理 。 其 次 ， 传 统 聚 类 算法 往往 
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需要 预先 给 定 艇 个 数 ， 并 以 此 为 终止 条 件 进行 聚 类 ， 但 在 滑坡 
预测 应 用 实例 中 ， 无 法 预先 给 定 k 值 。 


针对 这 些 问题 ， 本 文 提出 了 相应 的 改进 方法 。 首 先 ， 本 文 
提出 一 种 新 的 不 确定 数据 距离 公式 一 一 M-D 距离 ,该 公式 是 在 


Hausdorff 距离 的 基础 上 引申 出 的 适用 于 所 有 区 间 数 的 距离 公 
式 ， 它 能 更 精确 的 描述 两 个 不 确定 数据 之 间 的 距离 。 其 次 ， 本 
文 提出 一 种 可 以 有 效 处 理 不 确定 数据 的 新 聚 类 算法 一 PAHT 算 


法 ， 以 COPS (clusters optimization on preprocessing stage ) 回电 


想 为 基础 ， 该 算法 首先 引入 不 确定 数据 模型 一 M-D 距离 ， 其 次 


借助 层次 聚 类 思想 自 适 应 的 找 出 参数 p*; 然后 以 最 佳 聚 类 质量 
对 应 的 阙 值 p* 为 条 件 ， 再 做 一 次 划分 聚 类 ;最 后 剔除 噪声 和 离 


群 点 ， 得 到 最 佳 聚 类 个 数 k 和 最 终 聚 类 。 最 后 ， 本 文 以 延安 宝 
塔 区 为 实例 进行 实验 ， 通 过 在 相同 不 确定 数据 处 理 方式 
PAHT 算法 和 其 他 几 种 典型 算法 的 对 比 ， 验 证 PAHT 算法 的 有 
效 性 ， 通 过 在 同一 PAHT 算法 下 不 同 不 确定 数据 处 理 方 式 的 实 
验 结果 对 比 , 验证 M-D 距离 的 有 效 性 , 两 组 实验 均 验 证 了 不 确 
定 PAHT 算法 在 滑坡 预测 研究 上 的 可 行 性 。 


1 不 确定 数据 处 理 


本 章 首 先 介绍 不 确定 数据 定义 ， 提 出 区 间 数 的 概念 ， 其 次 
引出 一 种 新 的 不 确定 数据 间 的 距离 公式 M-D 距离 , 最 后 通过 以 


M-D 距离 构建 一 个 新 的 排序 函数 提出 一 种 新 的 不 确定 数据 排 
序 方法 。 
1.1 不 确定 数据 定义 

不 确定 数据 的 表示 方式 有 多 种 ， 例 如 : 决策 数据 的 三 角 模 


糊 数 ,传输 数据 的 点 概率 数 、 测 量 数据 的 区 间 数 等 和 四。 本 文 研究 
的 不 确定 数据 为 区 间 数 ， 区 间 数 用 区 间 的 形式 来 表示 数据 的 不 
确定 性 ， 其 定义 如 下 [7: 
定义 1 给 定 A,A' eR ,日 A+! > A-，, 称 集合 A=[A,A'] 
为 一 个 区 间 数 , 其 中 4 为 区 间 数 4 的 下 限 ，4 为 区 间 数 4 的 
上 限 。 当 4 =4 时 ， 即 上 下 限 相等 时 ， 区 间 数 4 为 一 个 精确 
数 。 
1.2 不 确定 数据 距离 
在 聚 类 算法 中 ， 距 离 是 个 非常 重要 的 概念 ， 聚 类 算法 通常 
采用 距离 作为 相似 性 的 评价 指标 ， 即 认为 两 个 数据 之 间距 离 越 
近 ， 其 相似 度 就 越 大 。 在 确定 性 数据 中 ， 欧 式 距离 是 应 用 最 / 
泛 的 度量 空间 ， 它 能 最 直观 反映 两 个 点 之 间 的 真实 距离 ， 但 在 
不 确定 性 数据 中 ， 欧 式 距离 无 法 有 效 度 量 其 间 的 距离 ， 为 描述 
其 不 确定 性 ， 文 献 四 提出 了 基于 区 间 数 的 Hausdorff 距离 : 
定义 2 ” 设 两 个 区 间 数 4=[4 ,A'] 和 B=[B ,8B'] ， 式 中 
c(x) 表示 区 间 数 x 的 中 点 ; r(x) 表示 区 间 数 x 的 半径 (x=A， 
B )， 则 两 点 之 间 的 Hausdorff 距离 为 : 
H(A,B)4c(A)-c(B)|+|r(A) -7(B)| (1) 
分 析 式 (1) 易 看 出 ， 在 均匀 分 布 的 前 提 下 ， 式 中 c(x) 能 直 
观 刻 画 区 间 数 的 集中 位 置 ， 而 半径 r(x) 则 能 有 效 反映 区 间 数 的 


离散 程度 。 但 是 通常 区 间 内 点 数据 的 分 布 情况 往往 无 法 获知 ， 
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基于 此 ， 本 文 借鉴 Hausdorff 距离 思想 提出 一 种 新 的 适用 于 所 
有 区 间 数 的 M-D 距离 : 

定义 3 设 两 个 区 间 数 4=[4 ,41] 和 B=[B ,B*] ， 式 中 
M(x) 表示 区 间 数 x 的 均值 ，D(x) 表示 区 间 数 x 的 平均 差 
(x=A,B)， 则 两 点 之 间 的 M-D 距离 为 

M -D(A,B)JM(A) -M(B)|+|D(A)- DB)| Q) 
注 : 假设 一 个 区 间 数 ,区 间 数 的 内 部 点 不 存在 任何 分 布 ， 
其 中 : 


XX 十 等 ,十 头 ; 十... 十 XX 
M(X)= 1 2 7 n 


DX, -MX)| 
D(X)=— 


分 析 式 子 可 得 , 对 于 任意 区 间 数 , 均值 M(x) 能 有 效 反 映 数 
据点 的 集中 趋势 , 而 以 均值 作为 参考 系 的 平均 差 D(x) 较 精 准 的 
反映 数据 的 离散 程度 。 
针对 Hausdorff 距离 仅 适 用 于 均匀 分 布 区 间 数 的 局 限 性 ， 
新 提出 的 M-D 距离 广泛 适用 于 一 般 区 间 数 。 在 实际 应 用 中 ,区 
间 数 的 内 部 点 可 能 服从 任何 分 布 或 者 不 服从 分 布 ， 相 较 于 传统 
Hausdorff 距离 会 造成 部 分 数据 信息 丢失 导致 无 法 准确 度量 相 
似 性 的 情况 , 基于 均值 和 平均 差 的 M-D 距离 可 以 充分 利用 区 间 


内 的 有 效 信息 ， 有 效 度量 其 相似 性 。 

下 面 给 出 M-D 距离 是 一 个 度量 空间 的 证 明 : 

证 明 区 间 数 集 用 7Y 表示, 设 三 个 区 间 数 4,B,C sy ， 分 别 
证 明 其 间距 离 满足 非 负 性 ， 对 称 性 ; 三角 不 等 式 性 ; 

1) 非 负 性 
M—D(A,B)=M(A)- M(B)|+| D(A) -DD(B)| a 中 
[IM(A)-M(B)EO|1D(A)- DB) ,所 以 M -D(A,B)>0, 满 
足 非 负 性 。 

2) 对 称 性 
[|M(A)-M(B)E M(B)— MA)| 同 样 


1D(4)-D(B) 上 DPD(B)-D(4)|, 故 M -D(A4,B)=M 一 D(B,A4) , 满 
足 对 称 性 。 
3) 三 角 不 等 式 性 

1MCD-M(B)I+MMCB)-MCC) 人 > 
1M(C4)-MCB)+TMCB)-MCC=MG4)-MCC)| ;同样 地 

18(4) -Q(B)|+|0(B) -QO)P 
|Q(4)- Q(B)+0(B) -0(C) 直 QO(A) -0(O)| 所 以 
M -D(A4,B)+M -DD(B,C)>M 一 D(A,C) ,满足 三 角 不 等 式 性 。 
寻 此 M-D 距离 满足 度量 空间 定义 的 三 个 条 件 , 是 距离 度量 
公式 。 
1.3 不 确定 数据 排序 
由 于 本 文 提出 的 不 确定 PAHT 聚 类 算法 为 提高 算法 效率 ， 
首先 会 在 属性 值 上 做 一 次 排序 以 便 之 后 的 顺序 扫描 ， 所 以 本 节 
在 提出 的 M-D 距离 的 基础 上 , 构建 一 种 新 的 排序 函数 ,以 相应 
排序 函数 的 值 来 反映 区 间 数 的 大 小 进行 排序 。 下 面 给 出 区 间 数 
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排序 规则 外 
定义 4 


设 nn 个 区 间 数 5, 元 ，… 


电光 » Xi =[ ,x ] ,找到 其 


最 小 目标 数 Mn ,Min=inf| [JsGo) ] ,其中 SG9) 是 区 间 数 


的 支 集 ， 在 定义 3 的 基础 上 提出 排序 函数 : 


fx) 4AMG) -MOI+| DE) -Dz) G) 
其 中 z 为 最 小 目标 数 Min ， 由 于 排序 函数 以 最 小 目标 数 为 参照 
系 ， 所 以 若 Co) > 了 (ww) 则 可 以 得 出 区 间 数 三 > 太 . 


2 不 确定 PAHT 算法 


本 章 介 绍 不 确定 PAHT 算法 的 思想 和 基本 步骤 。 由 于 传统 


聚 类 算法 需要 预先 设置 X 值 且 在 处 理 不 确定 数据 上 因 无 法 准确 
衡量 其 不 确定 性 致 聚 类 效果 欠 佳 ， 故 提出 不 确定 PAHT 算法 ， 


其 基本 思想 是 : 引入 新 提出 的 不 确定 数据 模型 一 M-D 距离 ， 其 
次 通过 在 排 好 序 的 数据 集 上 做 顺序 扫描 ， 根 据 p 值 的 逐步 增加 
数 不 同 划分 并 保存 CF 统计 值 , 增 量 的 构建 一 条 聚 类 质量 曲线 ， 
自 适应 的 找 出 最 佳 聚 类 指标 值 对 应 的 阙 值 p*， 再 以 p* 为 条 件 
故 划 分 聚 类 自动 确定 k 值 ， 得 到 最 佳 聚 类 效果 。 
不 确定 PAHT 算法 设计 如 下 : 
a) 数 据 进 行 预 处 理 ， 获 得 有 效 数据 集 ; 
b) 将 数据 集 以 式 〈3) 进行 从 小 到 大 排序 ， 形 成 有 序 序列 ; 
0) 以 M-D 距离 为 度量 ,以 1X; -yp 为 扫描 范围 在 有 序 序 


列 上 顺序 扫描 ， 根 据 参 数 5 逐步 增加 P 值 ， 分 别 做 不 同 划分 ， 
直至 所 有 点 聚 类 到 同一 个 簇 中 ， 保 存 每 次 划分 的 CF 值 ; 
d) 根 据 每 次 划分 保存 的 CF 值 , 增 量 的 绘制 聚 类 质量 曲线 ; 


e) 取 聚 类 指标 极 小 值 点 对 应 的 阔 值 p”， 
一 次 划分 ， 得 到 m 个 子 集 ; 
人 计算 m 个 子 集 每 个 子 集 中 点 的 数目 ， 


以 此 为 条 件 进行 


| 除 点 数目 少 的 子 


Rn 
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多 得 到 个 徐 ， 输 出 数据 
2.1 快速 排序 
利用 新 提出 的 排序 函数 把 每 个 区 间 数 化 成 一 个 可 以 代表 区 
间 数 的 实数 ， 其 次 利用 快速 排序 方法 对 区 间 数 进行 从 小 到 大 排 
序 ， 甚 基本 思想 是 49: 通过 一 趟 排序 将 要 排序 的 数据 分 割 成 独 
立 的 两 部 分 ， 其 中 左 半 部 分 的 所 有 数据 都 比 右 半 部 分 的 所 有 数 
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则 所 有 的 点 构成 一 个 簇 . 
算法 计算 过 程 从 P=P" (P? ={0,0,…， 


0) 开始 , 逐步 增加 了 


值 ， 每 步 增 量 为 0(6 ={G,2，…0j) ， 每 一 步 随 着 P 值 增加 形 
成 不 同 划分 ， 当 原本 属于 不 同 艇 的 点 变 为 相似 点 ， 这 些 艇 合并 


为 同一 个 通 , 每 步 计算 其 有 效 性 指标 Q 值 ( 其 计算 过 程 将 在 2.3 
入 详细 介绍 ), 直至 所 有 点 都 在 一 个 簇 中 。 而 增 量 5 的 选取 与 数 
据 集 的 分 布 稀疏 度 有 关 ， 给 出 相关 定义 ; 

定义 6 数据 集 在 第 j 维 的 分 布 稀疏 度 ;为 


A 


A 
不 中 


其 中 : 右 为 数据 点 X; 
j 维 的 中 心 ， 即 


— mi 并 ] < 
Ne n tg * 
全 ,0 = 了 2 区 
IaX ; X nid 
bon =1,.., 


可 以 看 出 @); 就 是 数据 集 第 j 维 规范 化 的 标准 偏差 ， 其 值 反 
映 第 j 维 属性 值 的 分 布 稀 疏 程度， 可 以 通过 


维度 上 属性 的 不 同 
来 查找 可 能 存在 的 簇 结 构 ， 故 可 以 推断 出 参数 5 公式 : 


a max { 0, 0,,..., 0,} 
| 时 


其 中 : & 取 值 经 过 实验 反复 验证 ， 设 定 为 =0.01. 
2.3 聚 类 质量 曲线 
算法 旨 在 寻找 聚 类 质量 曲线 中 最 佳 聚 类 质量 对 应 的 阅 

P*， 聚 类 质量 通常 利用 聚 类 有 效 性 指标 来 衡量 ， 一 个 质量 好 
聚 类 结果 的 基本 特征 是 相同 复 内 的 数据 点 尽 可 能 相似 ， 不 同 
内 的 数据 点 尽 可 能 相 异 ， 有 效 性 指标 量化 这 种 相似 度 和 相 异 有 
组 合 二 者 ， 本 算法 选用 有 效 性 指标 Q 四 。 其 定义 如 下 : 

定义 7 给 定 一 个 数据 集 的 划分 C={G,G,.…G.} ， 
Scat(C*) 表示 C* 的 艇 内 相似 度 ， Sep(C") 衡量 C* 的 簇 间 相 异 
度 ，0Q(C) 表示 为 


源 溃 要 启 


O(C) = (Scar(O) + Sep(C)) 


I 


k=1 时 ， Seq(C')=0 、 Scat(C')=M , 易 求 得 
)=C(C )=1， 故 最 佳 聚 类 指标 值 Q(C') 取 (0.D 上 的 极 小 


CCC ) 


据 都 要 小 , 然后 再 按 此 方法 对 这 两 部 分 数据 分 别 进行 快速 排序 ， 
整个 排序 过 程 递归 进行 ， 直 至 每 个 部 分 只 有 一 个 数据 ， 以 此 达 
到 整个 数据 变 成 有 序 序列 。 
2.2 ”相似 点 和 参数 设置 

定义 5 设 疮 值 P;>0，1< j<4a. 若 |*) 一 六 发 p;， 则 称 XX 


点 和 Y 点 在 第 j 维 相 似 ,给 出 阙 值 向 量 P={pi,pPy…Py) ， 这 
里 阙 值 P 在 每 个 维度 的 值 不 等 ， 它 反映 不 同 维度 属性 值 的 分 布 
情况 。 车 [x 一 发 pj (j=42,.…,4)， 则 称 义 点 和 YY 点 为 相似 
点 。 


彼此 相似 的 点 构成 同一 个 徐 。 由 公式 易 看 出 ， 若 阙 值 向 量 
P 无 限 小 ， 每 个 单独 的 点 构成 一 个 艇 ， 若 阔 值 向 量 P 无 限 大 ， 


人 描绘 聚 类 质量 曲线 需 计算 每 次 划分 的 聚 类 指标 值 Q(C”) ， 


过 Scat(C*) 和 Sep(C*) 的 增 量 计算 可 以 简化 2(C9 的 计算 
LS, LS, 


Sep(C”"')— Sep(C’)=-2 Se 
ee 


2 


i lc. Pss 


cee 湛 


Ce 3 伦 


a= 


m 
mj 


o 4 LS; <0 
,+ JE m n 2 Cl 


Scat(C*)— Scat(C*)= 


ea (c 


j=1 


:201804.02059v1 


bh 


录用 稿 


2 有 


统计 值 0 


基于 此 ， 数 据 集 的 合并 操作 可 以 简 
邻 数值 间 简 单 的 加 法 计 入 


i ,SS Sn )， (55;,, ZS2) 2 
注 ， 在 计算 初始 值 M 时 


mj ny )> >0 


S55, >» LS, 相 
和 ， 故 只 需 为 每 次 划分 C* 保存 一 个 CF 


RA LS,)) 
， 需 获得 每 个 点 的 CF 结构 


根据 此 方法 可 以 较 快 画 出 聚 类 质量 | 


线 的 示例 图 1 


， 最 佳 轩 


线 ， 下 图 给 出 0(C) 
案 类 指标 C(C4) 对 应 的 阙 值 为 p* 


2.4 划分 聚 类 


以 上 节 得 到 的 阙 值 产 为 条 件 做 一 


的 个 数 ， 


图 1 Q(C) 示 例 
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第 2、3 节 提 出 的 不 确定 数据 模型 和 不 确定 PAHT 算法 , 首先 以 
在 新 提出 的 M-D 距离 处 理 不 确定 数据 的 基础 上 , 比较 PAHT 算 
法 与 其 他 算法 的 预测 精度 ， 验 证 PAHT 算法 的 有 效 性 ， 其 次 以 
PAHT 算法 为 基础 ， 分 别 使 用 传统 不 确定 数据 处 理 方式 和 M-D 
距离 处 理 方式 , 观察 实验 结果 , 证 明 M-D 距离 在 衡量 不 确定 数 
据 上 的 有 效 性 及 不 确定 PAHT 算法 在 滑坡 预测 上 的 可 行 性 。 实 
给 在 intel-i7 双核 、 内 存 8G 的 计算 机 上 运行 ， 操 作 系统 为 
Windows 旗舰 版 。 
3.1 数据 来 源 及 处 理 
延安 宝塔 区 的 所 有 数据 均 来 自 于 西安 地 质 调查 中 心 ， 首 先 
利用 软件 ARCGIS 将 宝塔 区 进行 栅 格 化 ， 选 取 5mx5m 的 栅 格 
分 辨 率 ， 最 后 得 到 5672922 个 栅 格 单元 。 实 验 选 取 七 个 属性 作 
为 滑坡 危险 性 预测 的 评价 因子 5, 分 别 为 坡 型 、 坡 向 、 坡 高 、 坡 
度 、 岩 土 体 、 植 被 和 降雨 量 。 其 中 ， 坡 型 、 坡 向 、 坡 高 和 坡度 
的 数据 从 1:5000 精度 的 数字 高 程 图 里 各 因子 的 专题 图 中 分 别 
获取 031， 岩 土 体 数据 从 1: 1000 的 地 质 图 中 获得 ， 植 被 数据 通 
过 EVNI 遥感 软件 取得 , 降雨 量 值 采用 滑坡 发 生前 后 7d 的 日 降 
雨量 区 间 值 。 
在 这 些 因子 中 ， 坡 高 、 坡 度 、 坡 向 均 为 连续 属性 ， 可 直 
进行 归 一 化 处 理 ， 坡 型 〈 凹 型 ， 丁 型， 阶梯 型 ， 直 线 型 )、 植 名 
〈 低 ， 较 低 ， 高 ， 较 高 ) 及 岩 土 体 结构 (黄土 + 近 于 水 平 古 土壤 


Ba 


站 


KH 


次 划分 聚 类 自动 确定 簇 


其 具体 步骤 如 下 : 在 有 序 属 性 列 上 ， 以 第 一 个 点 为 厂 


开始 做 顺序 扫 


省 ， 其 扫 


丑 池 讲 


ER 类 结果 。 
2.5 ”去除 噪声 点 


为 % 一 站 <p', 直 至 没有 点 满足 这 


个 条 件 ， 然 后 取 最 后 一 个 满足 |% 一 yp 的 y 点 为 为 ， 仍 以 
一 站 < Pp" 为 扫描 范围 
满足 此 条 件 。 取 之 后 的 
描 ， 重 复 以 上 步 又， 直至 最 后 一 个 点 也 被 扫描 ， 
4 一 站 Pp" 的 点 构成 第 k 个 徐 ， 所 有 相似 点 划分 到 相同 簇 中 


扫描 其 后 的 点 ， 
点 为 加 ? 以 |w 一 


以 此 循环 ， 直 至 没有 点 
中 < 己 为 范围 做 顺序 扫 
所 有 满足 


在 上 节 划 分 聚 类 所 得 的 结果 艇 中 仍 存在 噪声 和 离 群 点 ， 它 


据点 的 数 
聚 类 结果 为 最 佳 聚 类 ， 
2.6 时间 复 杂 度 分 析 


算法 的 时 间 复 杂 度 总 共 
的 时 间 复 杂 度 为 O(dnlogn) ， 


的 基本 特点 是 : 簇 中 可 能 只 包含 一 个 数据 点 或 数据 点 数目 较 少 。 
为 去 除 噪声 点 ， 在 划分 聚 类 的 结果 上 ， 
， 删 除 所 有 数据 点 数目 车 


分 别 计算 其 k 个 类 中 数 
色 少 的 类 ， 以 此 得 到 的 最 终 
得 到 的 篮 个 数 为 最 佳 护 值 。 


UD 


几 部 分 构成 ， 甚 中 快速 排序 部 分 
d 代 表 数 据 的 维 数 ;生成 不 同 Q 值 


的 时 间 复 杂 度 为 CO(pdzV ) ,其 中 p 为 循环 次 数 ，N 代表 5 邻 域 


内 相似 点 平均 数 


， 它 们 的 值 远 远 小 于 n; 划分 聚 类 的 时 间 复 


刁 型 ， 黄 土 + 倾斜 古 土 壤 层 型 ， 黄 土 + 古 土壤 + 基 岩 型 ， 黄 土 + 古 
土壤 + 新 近 纪 泥岩 型 ) 为 离散 属性 , 需要 先 将 其 数值 化 再 进行 归 
化 处 理 ， 而 降雨 量 的 表现 形式 为 一 个 区 间 数 ， 它 具有 不 确定 
性 ， 传 统 方法 无 法 对 其 有 效 刻画 ， 故 利用 本 文 第 2 章 提出 的 不 
确定 M-D 距离 对 其 进行 处 理 。 
3.2 不 确定 PAHT 算法 滑坡 预测 模型 的 构建 
首先 引入 不 确定 数据 模型 , 以 M-D 距离 衡量 不 确定 数据 间 
的 距离 ,用 以 M-D 距离 为 基础 提出 的 排序 函数 进行 不 确定 数据 
间 的 快速 排序 ， 其 次 基于 层次 聚 类 思想 增 量 的 构建 一 条 聚 类 质 
量 曲线 ， 利 用 参数 5 逐步 增加 p 值 做 不 同 划分 ， 每 次 划分 保存 
CF 统计 值 ， 以 此 为 基础 增 量 的 计算 聚 类 指标 值 Q(C9， 画 出 
Pp-Q 曲线 ， 找 出 聚 类 指标 2 的 极 小 值 点 对 应 的 p 值 ， 再 以 最 
佳 阙 值 p 为 条 件 做 一 次 划分 , 以 | 一 站 < p' 为 范围 顺序 扫描 有 
序 序列 ， 得 到 划分 聚 类 结果 ， 最 后 去 除 噪声 和 离 群 点 ， 以 此 得 
到 的 聚 类 结果 为 最 佳 聚 类 ， 得 到 的 类 别 个 数 为 最 终 簇 个 数 。 
3.3 ”滑坡 危险 性 等 级 划分 
滑坡 危险 性 等 级 是 滑坡 危险 性 预测 的 决策 因子 ， 滑 坡 危 险 
性 等 级 分 为 : 低 危 、 中 危 、 高 危 。 这 里 根据 上 述 建立 的 不 确定 
PAHT 算法 的 预测 模型 ,把 5672922 个 评价 单元 最 终 聚 类 到 465 


> 


杂 度 为 O(dnN*) ;去 除 
PAHT 算法 的 时 间 复 杂 


噪声 点 的 时 间 复 杂 度 是 0(n) , 综 上 所 述 


度 为 O(dnlogn). 


3 ”实验 研究 及 结果 分 析 


汗 


本 章 以 延安 宝 上 


了 


区 为 实例 ， 


个 子 集中 。 每 个 子 集中 的 点 具有 相似 特征 ， 所 以 可 以 利用 “与 
发 育 滑坡 的 相似 特征 也 同时 具有 相似 的 滑坡 发 生 趋势 ”[ 鸣 这 一 
特性 ， 根 据 已 有 的 293 个 滑坡 观测 点 的 已 知 危险 性 等 级 ， 预 测 
每 个 聚 类 子 集中 点 的 危险 性 等 级 。 实 验 选用 直接 搜索 法 和 专家 


评价 法 53， 首先 使 用 直接 搜索 法 对 每 个 子 集 进 行 扫描 ， 若 子 集 


提取 实验 相关 数据 ， 分 别 引进 


中 只 有 一 个 确定 的 危险 性 等 级 ， 则 该 危险 性 等 级 就 是 这 整个 子 
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集 的 危险 性 等 级 ， 若 子 集中 含有 的 确定 性 危险 性 等 级 不 等 ， 则 
遵从 少数 服从 多 数 原则 确定 子 集 的 危险 性 等 级 ， 对 于 未 含 确定 
危险 性 等 级 或 含有 相同 数目 的 不 同 危 险 性 等 级 的 聚 类 子 集 ， 它 
们 的 危险 性 等 级 由 专家 结合 区 域 调 查 结果 再 根据 经 验 进 4 
3.4 评价 标准 

实验 选取 预测 精度 和 Kappa 系数 两 个 指标 作为 滑坡 预测 的 
评价 标准 ， 预 测 精度 即 预测 点 和 观测 点 一 致 的 数量 与 总 体 观测 
点 数量 的 比例 ， 而 kappa 系数 作为 一 种 被 广泛 使 用 的 一 致 性 评 
价 机 制 ， 在 滑坡 预测 评价 实例 中 ， 通 过 考虑 混淆 矩阵 的 所 有 因 
子 09 来 反映 预测 结果 和 观测 数据 之 间 的 吻合 程度 ， 甚 取 值 范 置 
为 [-1.1]. 其 值 越 大 ， 表 明 预 测 值 和 观测 值 的 一 致 性 越 大 .其 公式 
07] 为 


uy 


dl 


A 
1 一己 
pp; 
二 二 
pp, N 
2(p x ps) 
天 三 pr 


其 中 : Pp。 是 预测 精度 , 表示 预 疯 


= 


和 观测 一 致 的 概率 ，p, 表示 


为 样本 总 数 ，P; 为 第 i 类 型 被 正确 分 类 的 数目 ，P, 为 第 i 类 
型 所 在 列 的 数目 之 和 ，P,; 为 第 i 类 型 所 在 行 的 数目 之 和 。 
3.5 ”滑坡 危险 性 预测 结果 评价 分 析 
3.5.1 实验 1 
为 验证 PAHT 算法 的 有 效 性 ， 实 验 抽样 不 同比 例 的 实验 数 
据 ， 选 用 其 他 几 种 典型 算法 与 PAHT 算法 实验 ， 比 较 它 们 的 预 
测 精度 和 时 间 性 能 。 
取 CFSFDP、SYNC、FAKCS 算法 进行 对 比 实 验 。 其 中 ， 
CFSFDP 算法 以 密度 峰值 作为 聚 类 中 心 ， 和 凭借 相 邻 距离 和 密度 


评定 。 


偶然 机 会 造成 的 预测 点 与 观测 点 一 致 的 概率 , n 为 所 有 类 别 数 ， 


为 85% 左 右 ， 仍 低 于 PAHT 算法 高 达 90% 的 预测 精度 ， 根 据 不 
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同 算法 的 对 比 ， 易 得 出 PAHT 算法 的 预测 效果 最 佳 。 
0.95 
oo9 2 
0.85 人 
0.8 
0.75 
0.7 - 一 9 一 CFSFDP 算 法 
一 时 一 SYNC 算 法 
0.65 - 一 和 -FAKCS 算 法 
一 x-PAHT 算 法 
0.6 r i i 1 i 1 
0.10% 0.50% 1% 5% 8% 10% 


为 验证 算法 的 时 间 效 率 , 分 别 取 0.1%、1%、10% 三 种 抽样 


导 2 不 同 算法 预测 精度 对 比 结果 


t 


比例 下 各 算法 的 运行 时 间 ， 实 验 对 比 效果 如 图 3 所 示 。 


对 每 
O(Txn*) ， CFSFDP 算法 的 运行 时 间 虽 


时 间 /min 
L959] 
己 


60 


50 


上 
So 


[> 
So 


回 CFSFDP 
国 SYNC 
口 FAKCS 
口 PAHT 


抽样 比例 /% 


司 3 ”不 同 算法 运行 时 间 对 比 结果 


从 图 中 可 以 看 出 , PAHT 算法 和 FAKCS 算法 在 三 种 不 同 抽 


样 比例 的 数据 下 时 间 性 能 较 优 。 这 主要 是 由 于 SYNC 算法 需要 


个 分 量 进行 迭代 计算 ， 迭 代 工 ; 


< 


次 的 时 间 复 杂 度 为 
各 低 于 SYNC 算法 ， 


完成 复 的 划分 ，SYNC 算法 则 是 将 数据 集中 的 每 个 数据 点 的 每 
个 属性 看 做 一 个 相位 振子 ， 随 同步 范围 慢 慢 扩大 ， 所 有 振子 会 
慢 慢 形成 多 个 做 局 部 同步 运动 的 徐 ，FAKCS 算法 基于 Davies- 
Bouldin 指标 自 适 应 查找 参数 < ， 并 能 自动 确定 最 佳 聚 类 数 。 
为 验证 算法 的 聚 类 精度 ， 实 验 数据 分 别 取 所 有 实例 数据 中 
的 0.1%、0.5%、1%、5%、8% 和 10%， 所 有 算法 都 以 传统 方式 
处 理 连续 和 离散 属性 的 数据 ， 以 M-D 距离 公式 处 理 不 确定 数 
据 ， 实 验 结果 如 图 2 所 示 。 
从 图 中 易 看 出 ，PAHT 算法 的 平均 性 能 较 优 于 其 他 三 种 算 
法 。 其 中 CFSFDP 算法 总 体 聚 类 质量 较 差 ， 平 均 预 测 在 75% 左 
右 ， 这 是 因为 数据 集中 存在 部 分 不 明显 类 簇 ， 而 CFSFDP 算法 
往往 不 擅长 发 现 此 类 型 簇 致 聚 类 效果 欠 佳 ,， 从 SYNC 算法 折线 
可 以 看 出 ， 随 数据 集 变 大 ， 其 预测 精度 越 低 ， 可 以 得 出 SYNC 
算法 在 大 规模 数据 集 的 聚 类 上 存在 局 限 性 ， FAKCS 算法 聚 类 


但 它 需 要 计算 每 个 艇 的 边界 区 域 ， 时 间 复 杂 度 达到 O(n*) ， 

FAKCS 算法 通过 对 原始 数据 集 进行 压缩 使 算法 计算 量 大 大 减 
适合 处 理 大 数据 集 ， 但 压缩 后 的 数据 集 不 能 充分 代表 原 数 
据 集 ， 所 以 其 预测 精度 不 如 PAHT 算法 ， 而 PAHT 算法 通过 排 


序 方法 提高 时 间 效 率 ， 其 时 间 复 杂 度 为 O(dnlogn) ， 具 有 较 好 
的 时 间 性 能 。 综 合 预测 精度 及 时 间 性 能 的 考虑 ，PAHT 算法 的 


有 效 性 优 于 其 他 三 种 算法 。 


3.5.2 实验 2 

为 验证 不 确定 距离 M-D 距离 的 有 效 性 , 实验 使 用 PAHT 算 
法 ， 分 别 以 不 同方 式 处 理 不 确定 数据 ， 比 较 它 们 的 危险 性 等 级 
划分 及 预测 精度 和 Kappa 系数 。 

取 Euclidean 距离 和 Hausdorff 距离 与 M-D 距离 进行 对 比 


实验 ， 在 滑坡 危险 性 预测 的 传统 聚 类 算法 


0 处 理 降 


| 


PF， 通常 以 定量 方式 
雨量 这 一 不 确定 数据 ， 通 过 雨量 值 大 小 将 其 划分 为 : 


质量 虽 略 优 于 CFSFDP 算法 和 SYNC 算法 , 它 的 平均 预测 精度 


小 有 


请， 中 下 


有， 大 雨 , 暴雨 , 大暴雨， 特大 暴雨 ， 以 传统 Euclidean 
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chinaXiIv 


录用 稿 


据 距 离 衡 量 ， 它 利 | 


数据 预 处 理 
降 


定单 元 ， 


距离 衡量 两 个 对 象 间 的 距离 ; Hausdorff 距离 广泛 用 于 不 确定 数 
不 确定 数据 的 中 点 和 
实验 取 宝 塔 区 实例 数据 ， 其 区 域 滑 坡 观测 点 共 428 个 ， 在 
阶段 , 所 有 观测 点 被 栅 格 化 为 1367 个 单元 ,其 中 含 
EE 十 信息 单元 为 1036 个 ， 其 余 331 个 点 为 不 含 降雨 信息 的 稳 
取 PAHT 算法 ， 分 别 以 Euclidean 距离 、Hausdorff 距 


径 来 表现 其 不 确定 


离 和 M-D 距离 衡量 不 确定 数据 间距 ， 实 验 结果 如 表 1 所 示 。 


表 1 不 同 不 确定 数据 处 理 方式 下 PAHT 算法 的 
滑坡 危险 性 等 级 划分 表 
不 确定 数据 预测 
观测 Po Kappa 
处 理 方式 低 危 中 危 高 危 
低 危 330 72 31 
Euclidean 距离 中 危 37 540 61 77.90% 0.6490 
高 危 32 69 195 
低 危 358 50 25 
Hausdor 华 距离 中 和 危 24 561 53 84.19% 0.7505 
高 危 15 49 232 
低 危 386 36 11 
M-D 距离 中 危 18 590 30 90.24% 0.8464 
高 危 8 18 270 
表 1 中 可 以 看 出 ， 实 验 在 其 他 条 件 均 相同 的 情况 下 ， 仅 
通过 不 同方 式 的 不 确定 数据 处 理 ， 得 到 的 实验 结果 相差 较 大 ， 
传统 定量 法 通过 Euclidean 距离 处 理 不 确定 数据 ， 由 于 它 无 法 
刻画 其 不 确定 性 导致 其 预测 精度 不 到 80%, Hausdorff 距离 虽然 
综合 考虑 了 不 确定 数据 的 不 确定 性 ， 但 它 忽 略 了 数据 内 部 点 的 


分 布 信息 ， 


其 不 确定 性 


90.24%，Kappa 系数 达到 0.8464， 实 验 结果 证 明 
确定 数据 上 的 7 


已 的 预测 结果 虽 高 于 传统 定量 方法 ， 但 仍 未 达到 预 
期 需求 , M-D 距离 通过 考虑 不 确定 数据 的 均值 和 均值 差 来 刻画 
E， 充 分 考虑 了 其 内 部 分 布 情况 ， 其 预测 精度 达到 


LE 确 性 。 


3.5.3 实验 小 结 


实验 1 通过 在 相同 条 件 下 几 种 


比 实 验证 明了 


效率 两 个 不 同 角 度 。 实 验 2 取 不 同 


了 它 在 衡量 不 


型 算法 与 PAHT 


法 的 对 


PAHT 算法 的 有 效 性 


| 


， 其 综合 了 预测 精度 和 时 间 


不 确定 数据 处 理 方式 在 PAHT 


算法 上 实验 , 通过 对 比 滑坡 危险 性 等 级 划分 表 验 证 了 M-D 距离 


在 
验证 了 不 确定 


4 ”结束 语 


及 无 法 预先 给 出 值 等 问题 ， 
离 -M-D 距离 , 并 以 此 为 模型 提出 不 确定 PAHT 
过 扫描 有 序 序列 增 量 的 构建 聚 类 质量 


j 量 不 确定 数 提 


PAHT 算法 在 滑坡 危险 怕 


居中 的 有 效 性 。 同 时 ， 两 个 实验 的 实验 结果 都 
预测 上 的 可 行 性 。 


针对 传统 聚 类 算法 在 滑坡 预测 应 用 上 对 降 和 


有 上 量 值 刻 画 困 难 


本 文 提出 一 种 新 的 不 确定 数据 距 


和 法 ,该 算法 通 


线 ， 并 自 


ne 


适应 的 找 出 最 


生 凯 值 p*， 以 此 为 划分 自动 确定 最 终 聚 类 k 的 数 
区 的 实验 结果 表明 ， 不 确定 PAHT 算法 在 提高 滑坡 危险 性 预测 
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胡 健 ， 等 : 不 确定 PAHT 聚 类 算法 在 滑坡 危险 性 预测 上 的 应 用 


。 延 安 宝 塔 


精度 上 取得 了 较 好 效果 。 
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